机器学习
概述
输入 => Learning Algorithm(Task) 训练 => 输出
微积分 偏导数 向量-值函数 方向梯度 概率论 Bayse 定理 组合学 抽样方法 计算科学 凸分析 算法复杂度
机器学习的一般过程
数据采集 数据处理 选择建模算法 结果实施
分类
有监督 学习 回归 分类 无监督学习 聚类 关联 半监督学习 Transductive SVM 协同训练 强化学习 PPO A2C/A3C
算法
有监督学习常见算法 线性回归 逻辑回归 KNN 朴素贝叶斯 SVM 决策树 集成算法系列 装袋算法 Bagging 随机森林 Boosting Adaboost GBDT Xgboost 无监督学习常见算法 聚类算法 关联规则 K-Means K-Mediods DBSCAN Apripor FP-Growth
机器学习术语和概念
数据集 训练集、验证集、测试机、训练模型的数据集合 样本/示例 行 Record、一个事件或对象 属性/特征 列 feature 性质 样本空间 属性长成的空间
训练数据、训练样本 训练模型 学习、训练 从数据集中学得模型的过程 模型、学习器 训练后的结果 模型评价 评估模型性能优劣过程 目标函数 算法学习后得到的参数、阈值、比例等构成的函数 损失函数、代价函数 评估原始数据与预测数据差距的函数、评估模型
偏差 原始数据与预测数据之间的差距,放映了模型本身的你和能力 方差 方差度量了同等大小训练集的变动导致学习性能的变化,刻画了数据燃动所导致的影响。
泛化能力 机器学习的目标是使学得的模型能够很好的适用于新的样本,而不是仅仅在训练样本上工作的很好,学得模型适用于新样本的能力称为泛化能力。 误差 学习到的模型在样本上的预测结果与样本真是结果之间的差。 训练误差 在训练集上 泛化误差 在新样本上
凹凸函数 凸集 凹集 凸函 数 凹函数
过拟合、欠拟合 Underfitting just right over fitting
参考
教程
概率论,离散,高数,线代,四门
推荐去看mooc唐宇迪老师讲的Python数据分析与机器学习
机器学习与深度学习@刘毅2018.09.09
https://www.bilibili.com/video/av59777194/
本课程是一套完整的AI入门课程,主要包括机器学习和深度学习两部分。在本课程中,你将学到,机器学习的原理和基本知识、线性回归、logistic回归、决策树、朴素贝叶斯算法,以及深度学习的原理、tensorflow入门、卷积神经网络、循环神经网络、手写数字识别,并基于tensorflow seq
sklearn、tensorflow官网
CS224d、CS231n
参考书籍: 《机器学习》、《统计学习方法》、《模式识别与机器学习》、《Hands-On Machine Learning With Scikit-Learn & TensorFlow》
回归与分类
线性回归、Logistic回归、Softmax回归
决策树
多种决策树模型、Gagging、Boosting思想
朴树贝叶斯
自然语言处理、文本分类